男女啪啪抽搐高潮动态图-国产高清av久久久久久久-粉嫩极品国产在线观看-奇米影视777四色狠狠-成人自拍一区-午夜小视频在线观看-日本理伦少妇4做爰-久久综合久久88中字幕文-日本视频网-亚洲在线免费视频-国产亚洲欧美在线观看三区-亚洲国产区男人本色vr-超碰在线综合-亚洲色图影院-亚洲人成网站在线播放影院在线-国产在线高清理伦片a-精品国产第一区二区三区的特点-精品国产v无码大片在线看-成人日韩熟女高清视频一区-91黄在线看

聯(lián)
咨詢熱線:

17661095540

聯(lián)系QQ:

2863379292

官方微信:

搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計分析

全網(wǎng)營銷

導(dǎo)讀:說的簡單易懂一些,網(wǎng)絡(luò)爬蟲跟你使用的〖離線閱讀〗工具差不多。說離線,其實(shí)還是要跟網(wǎng)絡(luò)聯(lián)結(jié),否則怎么抓東西下來?那么不同的地方在哪里?1)網(wǎng)絡(luò)爬蟲高度可配置性。2)網(wǎng)絡(luò)爬蟲可以解

發(fā)表日期:2020-04-25

文章編輯:興田科技

瀏覽次數(shù):7286

標(biāo)簽:

說的簡單易懂一些,網(wǎng)絡(luò)爬蟲跟你使用的〖離線閱讀〗工具差不多。說離線,其實(shí)還是要跟網(wǎng)絡(luò)聯(lián)結(jié),否則怎么抓東西下來?那么不同的地方在哪里?

1)網(wǎng)絡(luò)爬蟲高度可配置性。

2)網(wǎng)絡(luò)爬蟲可以解析抓到的網(wǎng)頁里的鏈接

3)網(wǎng)絡(luò)爬蟲有簡單的存儲配置

4)網(wǎng)絡(luò)爬蟲擁有智能的根據(jù)網(wǎng)頁更新分析功能

5)網(wǎng)絡(luò)爬蟲的效率相當(dāng)?shù)母?/p>

那么依據(jù)特征,其實(shí)也就是要求了,如何設(shè)計爬蟲呢?要注意哪些步驟呢?

1)url 的遍歷和紀(jì)錄

這點(diǎn) larbin 做得非常的好,其實(shí)對于url的遍歷是很簡單的,例如:

cat [what you got]  tr " n   gawk '{print $2}'   pcregrep ^http://

就可以得到一個所由的 url 列表

2)多進(jìn)程 VS 多線程

各有優(yōu)點(diǎn)了,現(xiàn)在一臺普通的pC 例如 booso.com 一天可以輕松爬下5個G的數(shù)據(jù)。大約20萬網(wǎng)頁。

3)時間更新控制

最傻的做法是沒有時間更新權(quán)重,一通的爬,回頭再一通的爬。

通常在下一次爬的的數(shù)據(jù)要跟上一次進(jìn)行比較,如果連續(xù)5次都沒有變化,那么將爬這個網(wǎng)頁的時間間隔擴(kuò)大1倍。

如果一個網(wǎng)頁在連續(xù)5次爬取的時候都有更新,那么將設(shè)置的爬取時間縮短為原來的1/2。

注意,效率是取勝的關(guān)鍵之一。

4)爬的深度是多少呢?

看情況了。如果你比較牛,有幾萬臺服務(wù)器做網(wǎng)絡(luò)爬蟲,我勸您跳過這一點(diǎn)。

如果你同我一樣只有一臺服務(wù)器做網(wǎng)絡(luò)爬蟲,那么這樣一個統(tǒng)計您應(yīng)該知道:

網(wǎng)頁深度:網(wǎng)頁個數(shù):網(wǎng)頁重要程度

0 : 1 : : 10

1 :20 : :8

2: :600: :5

3: :2000: :2

4 above: 6000: 一般無法計算

好了,爬到三級就差不多了,再深入一是數(shù)據(jù)量擴(kuò)大了3/4倍,二是重要度確下降了許多,這叫做“種下的是龍種,收獲的是跳蚤。

5)爬蟲一般不之間爬對方的網(wǎng)頁,一般是通過一個proxy出去,這個proxy有緩解壓力的功能,因?yàn)楫?dāng)對方的網(wǎng)頁沒有更新的時候,只要拿到 header 的 tag就可以了,沒有必要全部傳輸一次了,可以大大節(jié)約網(wǎng)絡(luò)帶寬。

apache webserver里面紀(jì)錄的 304 一般就是被cache的了。

6)請有空的時候照看一下robots.txt

7)存儲結(jié)構(gòu)。

這個人人見智,google 用 gfs 系統(tǒng),如果你有7/8臺服務(wù)器,我勸你用NFS系統(tǒng),要是你有70/80個服務(wù)器的話我建議你用afs 系統(tǒng),要是你只有一臺服務(wù)器,那么隨便。

給一個代碼片斷,是我寫的新聞搜索引擎是如何進(jìn)行數(shù)據(jù)存儲的:

NAME=echo $URL  perl -p -e 's/([^w-.@])/$1 eq "n" ? "n":sprintf("%%%2.2x",ord($1))/eg'mkdir -p $AUTHOR

newscrawl.pl$URL--user-agent="news.booso.com+(+http://booso.com)"-outfile=$AUTHOR/$NAME

特別是注意以下幾句:

1.通常在下一次爬的的數(shù)據(jù)要跟上一次進(jìn)行比較,如果連續(xù)5次都沒有變化,那么將爬這個網(wǎng)頁的時間間隔擴(kuò)大1倍,如果一個網(wǎng)頁在連續(xù)5次爬取的時候都有更新,那么將設(shè)置的爬取時間縮短為原來的1/2。

網(wǎng)頁更新頻度嚴(yán)重影響著搜索引擎蜘蛛程度對網(wǎng)站的爬行,爬取次數(shù)越多意味著網(wǎng)頁收錄幾率會越大、收錄數(shù)量越多,收錄是SEO最基礎(chǔ)的一個環(huán)節(jié)。

2.好了,爬到三級就差不多了,再深入一是數(shù)據(jù)量擴(kuò)大了3/4倍,二是重要度確下降了許多,這叫做“種下的是龍種,收獲的是跳蚤。

盡量將網(wǎng)站保持在三級目錄內(nèi),深層次的網(wǎng)頁會給搜索引擎帶來很大的壓力,當(dāng)然,我想Google有足夠的服務(wù)器來承擔(dān)這些壓力,但從側(cè)面來說,3層目錄下的網(wǎng)頁被抓取及更新的頻度要低很多。前面,我說過,要想辦法使網(wǎng)站物理結(jié)構(gòu)和邏輯結(jié)構(gòu)吻合,這體現(xiàn)于URL的良好設(shè)計,現(xiàn)在你可以檢查下前臺生成的靜態(tài)網(wǎng)頁的實(shí)際目錄有幾層,考慮是否可以優(yōu)化

相關(guān)推薦

更多新聞

  • 8-24

    2023

    全網(wǎng)營銷 / 2023-08-24

    京山網(wǎng)站建設(shè)公司:為你打造專業(yè)的網(wǎng)站

    京山網(wǎng)站建設(shè)公司擁有一支經(jīng)驗(yàn)豐富、專業(yè)技術(shù)的團(tuán)隊(duì),包括設(shè)計師、開發(fā)人員和優(yōu)化人員。他們精通各種網(wǎng)站開發(fā)技術(shù),能夠根據(jù)客戶的需求進(jìn)行定制開發(fā),并確保網(wǎng)站在各個方面的完美呈現(xiàn)。

    View details

  • 8-2

    2023

    全網(wǎng)營銷 / 2023-08-02

    定制小程序開發(fā):讓您的業(yè)務(wù)邁向移動互聯(lián)時代

    隨著科技的迅猛發(fā)展和移動設(shè)備的普及,手機(jī)應(yīng)用程序已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧H藗兛梢酝ㄟ^手機(jī)應(yīng)用程序輕松地購物、預(yù)定服務(wù)、社交娛樂等。而小程序作為一種新興的應(yīng)用形式,正在迅速流行起來。本文將重點(diǎn)介紹定制小程序開發(fā)的概念、優(yōu)勢以及如何在市場中成功運(yùn)營定制小程序。

    View details

  • 7-8

    2020

    全網(wǎng)營銷 / 2020-07-08

    2017年seo站內(nèi)優(yōu)化常見疑惑問題解答

    SEO是一門沒有正規(guī)教程的學(xué)科,而且方式策略會隨著時間發(fā)展而發(fā)生變化,因?yàn)樗阉饕鏁?jīng)常更新算法,尤其是近期,基本一個月變一次,如果我們的網(wǎng)站受影響,很多人常常會先從自己網(wǎng)站

    View details

  • 8-22

    2023

    品牌軟文營銷 / 2023-08-22

    關(guān)于網(wǎng)站建設(shè)源碼編寫注意事項(xiàng)

    簡介在進(jìn)行網(wǎng)站建設(shè)時,編寫源碼是一個至關(guān)重要的步驟。。源碼的質(zhì)量直接影響著網(wǎng)站的效率、安全性和用戶體...

    View details